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摘 要 
造成 的 影响 。 


创造 力 测评 中 的 评分 者 效应 (rater effects) 是 指 在 创造 性 测评 过 程 中 ， 由 于 评分 者 参与 而 对 测评 结果 
评分 者 效应 本 质 上 源 于 评分 者 内 在 认 知 加 工 的 不 同 ， 具体 体现 在 其 评分 结果 的 差异 。 本 文 首先 


概述 了 评分 者 认 知 的 相关 研究 ， 以 及 评分 者 、 创 作者 、 社 会 文化 因素 对 测评 的 影响 。 其 次 在 评分 结果 层面 梳 
理 了 评分 者 一 致 性 信和 度 的 指标 及 其 局 限 ， 以 及 测验 概 化 理论 和 多 面 Rasch 模型 在 量化 、 控 制 该 效应 中 的 应 用 。 
最 后 基于 当前 研究 仍 存 在 的 问题 ， 指 出 了 未 来 可 能 的 研究 方向 ,包括 深化 评分 者 认 知 研究 、 整 合 不 同 层面 评分 


者 效应 的 研究 ， 以 及 拓展 创造 力 测评 方法 和 技术 等 。 
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在 社会 科学 领域 , 研究 者 常常 需要 以 人 的 主 
观 评 判 分 数 ， 作 为 衡量 个 体 工作 或 行为 表现 的 量 
化 指标 ,例如 ,教师 评价 学 生 的 作文 , 管理 者 评判 
员工 的 工作 表现 , 在 很 大 程度 都 依赖 于 主观 判 
断 。 然 而 ,由 于 每 位 评分 者 都 有 自身 独特 的 风格 
(idiosyncrasies)， 人 的 主观 因素 一 旦 卷 人 测评 ， 评 
分 过 程 中 就 难免 出 现 偏差 。 所 谓 评分 者 效应 (rater 
effects)， 即 是 由 评分 者 之 间 的 差异 ,特别 是 主观 
因素 差异 而 对 测量 结果 所 造成 的 影响 (Wolfe，2004; 
Wolfe & McVay, 2012)。 由 于 评分 者 因素 可 能 对 测 
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评 领域 广 为 采 用 的 评定 形式 (贡献 , 刘 昌 ,， 沈 汪 兵 
2016; Long, 2014a)。 当 评分 者 参与 创造 力 测评 的 
情况 下 ， 如 何 有 效 描绘 、 控 制 测评 过 程 中 的 评分 
者 效应 ， 自 然 也 成 为 创造 力 研究 领域 的 重要 课题 
(Hung, Chen & Chen, 2012; Long & Pang, 2015). 
目前 ， 针 对 评分 者 效应 的 研究 主要 从 两 个 层 
面 展开 (Wolfe & McVay, 2012)。 一 是 “ 潜 " 层 ， 主 要 
聚焦 于 测评 本 身 ， 即 分 析 评 分 背后 的 认 知 加 工 ， 
揭示 不 同类 型 (如 不 同 知识 经 验 水 平 ) 评 分 者 在 认 
知 特点 上 存在 的 差异 ， 以 及 影响 测评 的 因素 等 。 


验 的 信 效 度 产 生 影响 ， 很 多 学 术 组 织 要 求 研究 者 
提供 相应 的 理论 或 实证 证 据 ， 以 说 明 其 评判 结果 
是 合理 的 (AERA, APA, & NCME, 2014)。 

创造 性 想法 或 产品 不 仅 是 新 颖 的 noveD)， 还 
需 是 适宜 的 (appropriate) (Hennessey & Amabile, 
2010)， 有 用 的 (useful) (Plucker, Beghetto & Dow, 
2004; Runco & Jaeger, 2012), 或 者 是 有 意义 的 
(meaningful) (Beghetto & Kaufman, 2007) ,换言之 ， 
对 观念 和 产品 创造 力 水 平 的 评判 ， 离 不 开 人 们 的 
价值 判断 。 事 实 上 ， 主 观 评定 目前 也 是 创造 力 测 
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二 是 “ 表 ” 层 ， 仅 关注 评分 结果 ， 分 析 评 分 者 间 的 
一 致 性 ， 利 用 相应 的 统计 指标 和 模型 对 其 进行 量 
化 , 或 利用 统计 控制 的 方法 ,校正 评分 偏差 。 鉴 于 
此 ,本 文 则 在 以 上 述 两 个 层面 为 分 析 框 架 ， 针对 
| 造 力 测评 中 的 评分 者 效应 及 其 相关 研究 作 以 梳 
里 ， 以 期 能 够 为 创造 力 研 究 者 提供 某 些 参考 。 


1 评分 者 认 知 


创造 力作 为 一 种 高 级 认 知 形式 ,对 其 评判 肯 
定 是 一 个 复杂 的 认 知 加 工 工程 。 基 于 当前 研究 ， 
可 从 两 个 层面 对 其 加 以 分 析 , 一 是 对 特定 观点 (或 
产品 ) 创 造 性 的 感知 和 辨识 ( 即 创造 性 观念 评价 认 
知 ); 二 是 对 众多 观点 创造 性 的 对 比 和 评分 ( 即 创 
造 力 测评 )。 
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1.1 创造 性 观念 评价 认 知 

Runco 和 Smith (1992) 将 创造 性 观念 评价 分 为 
个 人 评价 (intrapersonal evaluation) FU A PR FE MY 
(interpersonal evaluation) 两 种 形式 ， 前 者 指 个 体 
对 自己 生成 观点 的 评价 ， 后 者 即 对 他 人 观点 的 评 
价 。 其 中 ,个 人 评价 可 以 发 生 在 创造 性 认 知 加 工 
的 过 程 之 中 ,也 可 以 是 针对 自己 最 终 创 造 性 产物 
的 评价 .Mumford, Lonergan 和 Scott (2002) 将 创造 
性 认 知 加 工 的 过 程 中 的 观念 评价 定义 为 估计 观点 


被 试 在 直觉 加 工 (intuitive processing) 条 件 下 选 出 
的 想法 更 具 创造 性 。 这 些 研究 表明 ， 人 们 在 识别 
新 颖 观点 的 过 程 中 ,可 能 需要 相对 整体 、 抽 象 和 
觉 性 的 思维 模式 ， 一 方面 可 减少 对 相对 陌生 刺 
激 的 不 确定 感 ， 另 一 方面 促进 对 创造 性 观点 的 理 
解 和 辨识 。 
需 注意 的 是 ， 由 于 上 述 人 研究 主要 关注 个 体 如 
何 识别 特定 创造 性 想法 ， 因 此 往往 以 和 特定、 少量、 
已 被 评定 为 高 创造 性 的 想法 作为 评价 材料 ,进而 


的 价值 、 预 判 其 影响 ， 以 及 对 观点 进行 修正 和 精 
炼 等 一 系列 复杂 认 知 活动 。 与 观念 生成 过 程 以 发 
散 思 维 为 主 不 同 ,观念 评价 过 程 则 以 聚合 思维 为 主 
(Cropley, 2006), 且 两 者 在 脑 机 制 上 也 表现 出 显著 
的 差别 (Ellamil, Dobson, Beeman, & Christoff, 2012). 而 
观念 生成 和 观念 评价 也 被 认为 是 创造 性 认 知 加 工 
的 两 个 主要 阶段 ， 这 在 诸多 理论 模型 中 都 有 所 体 
现 (Campbell, 1960; Finke, Ward & Smith, 1992; 
Sowden, Pringle & Gabora, 2015). 但是， 由 于 发 4 
在 创造 性 认 知 过 程 中 的 观念 评价 , 往往 是 和 观念 
生成 过 程 交替 进行 的 (Finke et al.，1992), 很 难 将 
其 单独 分 离 出 来 加 以 探讨 。 因 此 ， 目 前 针对 个 人 
评价 的 研究 也 是 以 个 体 对 已 生成 产品 进行 评价 的 
方式 进行 (e.g., Runco & Smith, 1992; Silvia, 2008)。 
依据 Runco FI Smith (1992) 的 分 类 , 创造 力 测 
评 中 的 评价 显然 属于 人 际 评价 的 范畴 。 关 于 人 际 
评价 ,已 有 研究 则 发 现 ， 人们 倾向 于 低估 他 人 想 
法 的 创造 性 水 平 ， 特 别 是 高 原创 性 的 想法 (Licuanan， 
Dailey & Mumford, 2007)， 而 偏爱 容易 理解 、 符 合 
一 般 社会 规范 的 观点 (Blair & Mumford, 2007). 
Mueller, Melwani 和 Goncalo (2012) 进 一 步 分 析 认 
为 ,由 于 创造 性 想法 具有 不 确定 性 , 很 可 能 是 这 
种 不 确定 感 使 人 们 对 其 产生 了 消极 评价 。 在 其 研 
究 中 ,他 们 首先 启动 被 试 对 不 确定 性 的 高 、 低 容 
忍 度 ,然后 再 让 被 试 对 一 个 高 创造 性 想法 进行 评 
判 ,同时 测 查 了 外 显 、 内 隐 创 造 力 态 度 。 结 果 显 
示 ， 大 学 生 被 试 在 不 确定 性 容忍 度 低 的 条 件 下 ， 
对 想法 的 创造 性 评价 更 低 ， 并 且 消 极 的 内 隐 创 造 
力 态 度 在 其 中 起 到 了 中 介 作 用 。Mueller, Wakslak 
All Krishnan (2014) 还 发 现 ， 人 们 在 低 建 构 水 平 ( 认 
知 表征 更 加 具体 化 ) 条 件 下 ， 更 加 难以 识别 想法 的 
创造 性 ， 从 而 表现 出 对 高 创造 性 想法 的 低估 。Zhu， 
Ritter, Miiller 和 Dijksterhuis (2017) 新 近 的 研究 则 
发 现 ， 相 对 于 精细 化 加 工 (deliberative processing), 


tt 


探讨 创造 性 评价 的 偏向 和 影响 因素 等 问题 。 但 在 
创造 力 测 评 过 程 中 , 评分 者 要 面 对 众 多 创造 性 水 
平 不 同 的 想法 , 因此 其 评分 认 知 过 程 势必 更 加 复杂 。 
1.2 创造 力 测评 及 评分 认 知 
1.2.1 创造 力 测 评 

当前 , 创造 性 的 测评 主要 从 四 个 方面 展开 ， 
即 创造 性 的 过 程 (creative process)、 人 (the creative 
person), 、 产 品 (creative products) 以 及 环境 (creative 
environments) (Plucker & Makel, 2010). 近 些 年 来 ， 
创造 性 过 程 和 产品 测验 被 应 用 得 更 加 深入 、 广 泛 
( 贡 赫 等 , 2016)。 创 造 性 思维 过 程 测验 主要 包括 发 
散 思 维 (Divergent Thinking，DDT) 测 验 和 顿悟 类 测 
验 。 由 于 顿悟 类 测验 的 问题 一 般 都 有 明确 的 答案 ， 
不 存在 评分 者 效应 问题 。 而 发 散 思 维 测 验 和 创造 
性 产品 测验 一 般 是 开放 式 的 ， 答 案 不 确定 、 不 唯 
一 ， 就 有 了 人 参与 评分 的 需要 。 因 此， 接 下 来 的 论 
述 将 主要 围绕 DT 测验 中 的 主观 计 分 和 针对 创造 
性 产品 的 同感 评估 技术 (Consensual Assessment 
Technique, CAT) 展 开 。 

在 DT 测验 中 , 早期 Guilford 等 已 开始 使 用 主 
观 评定 的 方法 对 被 试 答案 的 原创 性 (originality) 进 
行 评分 , 并 提出 了 其 3 个 指标 维度 ， 即 非常 规 性 
(uncommonness), 、 远 距离 性 (remoteness) 和 聪明 性 
(cleverness) (Wilson, Guilford & Christensen, 1953). 
璧 如， 为 了 评估 观点 原创 性 的 “聪明 性 ?维度 ， 
Guilford 等 请 3 位 评分 者 在 0~6 上 对 被 试 所 生成 
图 片 标题 进行 打分 。 近 些 年 来 , DT 测验 的 主观 计 
分 法 又 得 到 进一步 发 展 , 已 被 广泛 应 用 (Benedek， 
Miihlmann, Jauk, & Neubauer, 2013; Silvia, 2011; Silvia, 
Martin & Nusbaum, 2009; Silvia et al., 2008). Æ ill 
造 性 产品 测验 领域 , Amabile 首先 将 产品 的 创造 力 
定义 为 合适 而 独立 的 评判 者 赞同 其 具有 创造 性 的 
程度 (Amabile，1982)， 然 后 提出 了 CAT 要 求 : 所 
有 评判 者 需 具 有 领域 相关 经 验 ( 即 专家 ); 在 不 给 
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予 特定 标准 的 情况 下 ,评判 者 独立 进行 评判 并 达 
到 某 种 程度 的 一 致 。Amabile 的 研究 也 表明 , CAT 
应 用 于 拼 贴画 、 短 故事 、 诗 等 任务 ， 都 有 较 好 的 
评分 者 一 致 性 ， 并 与 创造 力 以 外 的 其 他 维度 (如 技 
巧 、 艺 术 吸 引力 ) 相 互 独立 (Amabile，1983)。 在 
Amabile 开创 性 工作 的 基础 上 , CAT 也 得 到 进一步 
发 展 (Hennessey，1994; Kaufman, Baer, Cole, & 
Sexton，2008)， 同 样 被 广泛 应 用 于 创造 力 实证 研 
究 (Long, 2014a)。 

尽管 CAT 与 DT 的 主观 评分 是 两 种 不 同 的 创 
造 力 测评 手段 , 但 二 者 之 间 也 有 相似 性 之 处 。 首 
FE, 它们 都 是 测 查 众多 产品 或 观点 的 相对 创造 力 
水 平 ， 强 调 待 评 材料 之 间 的 相互 对 比 以 及 评分 顺 
序 的 随机 。 其 次， 都 需 评分 者 主动 参与 ,以 其 内 在 
的 标准 或 对 给 定 标准 的 个 人 理解 ， 对 产品 或 观点 
的 创造 性 进行 评判 。 因 此 , 评分 者 认 知 过 程 具 有 
一 定 的 不 可 控 性 , 难免 会 带 来 评分 者 效应 问题 。 
1.2.2 ”评分 过 程 与 标准 

与 对 特定 的 观点 进行 评价 相 比 ， 对 众多 观点 
的 对 比 、 评 分 肯定 更 加 复杂 。 鉴 于 单纯 量化 研究 
的 局 限 ， 有 研究 者 尝试 采用 定量 和 定性 研究 相 结 
合 的 方式 ， 对 评分 者 的 内 在 认 知 过 程 、 特 点 ， 以 及 
评分 标准 等 问题 进行 分 析 (Long, 2014b; Long & 
Pang, 2015)。 

Long 和 Pang (2015) 以 六 年 级 学 生 在 科学 创 
造 力 任 务 中 的 反应 作为 评分 材料 ,选取 了 创造 力 
研究 者 (具有 创造 力 领域 知识 的 专家 )、 教 师 (具有 
学 生 相 关 知识 的 专家 ) 和 大 学 生 ( 新 手 ) 作 为 评分 者 ， 
探讨 了 其 评分 特征 。 基 于 半 结 构 式 访谈 的 质 性 分 
析 结 果 显 示 , 评分 者 的 评分 大 致 可 分 为 三 个 认 知 
加 工 阶段 : (1) 准 备 (preparing) 阶 段 : 评分 者 阅读 
评分 指导 语 、 理 解 创造 力 任 务 , 形成 自己 对 创造 
力 的 理解 ， 以 作为 之 后 评分 的 标准 ; (2) 评 分 
(scoring) Bit Be :评分 者 一 般 会 通 览 全 部 或 部 分 待 记 
的 答案 ， 以 形成 总 体 性 认识 ， 进 而 依据 自己 的 讨 
分 标准 对 答案 的 创造 力 水 平 进行 评定 ; (3) 调 整 
(adjusting) BY Be :评分 者 会 将 前 后 的 评分 进行 对 比 ， 
进一步 修改 最 开始 的 评分 (也 有 部 分 评分 者 不 会 
修改 ); 比如 提高 其 他 人 没有 提 及 答案 的 评分 (如 
果 以 新 颖 性 作为 其 评分 标准 的 话 )。 

另外 , Long (2014b) 基 于 科学 创造 力 任务 材料 ， 
还 分 析 了 CAT 的 评分 标准 问题 。 研 究 发 现 ， 除 了 
新 活性 (novelty) 和 适用 性 (appropriateness)， 评 分 
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者 还 会 依据 聪明 性 (cleverness)、 慎 思 性 (thoughtfulness) 
以 及 有 趣 性 (interestingness) 作 为 评分 的 标准 ; 并 
AL, 不 同 评分 者 所 依据 的 标准 或 标准 组 合 、 赋 了 予 
每 个 标准 的 权重 、 对 同样 标准 的 理解 ， 都 会 有 所 
差别 ; 针对 不 同 的 具体 评分 任务 , 同一 位 评分 者 
也 可 能 会 改变 自己 的 评分 标准 以 适应 于 该 任务 情境 。 

针对 DT 测验 中 被 试想 法 (质量 ) 的 评分 评分 
者 被 要 求 依据 的 标准 也 并 不 统一 。 如 Silvia 等 人 
(2008) 借 鉴 了 Guilford 等 原创 性 的 三 维度 指标 , 但 
所 评 却 是 每 个 想法 的 创造 性 (creativity)。 同样 是 评 
观点 的 创造 性 ，Benedek 等 人 (2013) 则 要 求 评 分 者 
依据 原创 (originalD) 且 适用 的 (usefuD) 标 准 进行 评 
定 。 男 一 些 研究 ， 则 直接 让 评分 者 对 想法 的 原创 
性 (originality) (Fink et al., 2015), 或 新 颖 性 (novelty) 
(Diedrich, Benedek, Jauk, & Neubauer, 2015; Gilhooly, 
Fioratou, Anthony, & Wynn, 2007) 进 行 评定 。 

概括 看 来 ， 目 前 直接 针对 评分 者 认 知 的 实证 
研究 并 不 多 ,对 其 认识 尚 不 够 系统 和 深入 。 不 难 
想象 ， 随 着 评分 者 特征 、 任 务 类 型 、 评 分 情境 ， 其 
至 是 创作 者 特点 的 变化 , 测评 过 程 和 结果 都 可 能 
出 现 差异 。 正 是 因为 看 到 这 一 点 ,更 多 研究 者 从 
某 一 角度 切 人 , 具体 考察 影响 创造 力 测评 的 各 种 


2 ”影响 创造 性 测评 的 因素 


2.1 评分 者 的 知识 经 验 

按照 CAT 的 理论 假设 , 选取 专家 型 评分 者 是 
有 效 测评 产品 创造 力 的 前 提 (Amabile, 1983)。 专 家 
和 新 手 评分 考 间 对 比 研究 结果 也 表明 ， 以 具有 
定 知识 经 验 的 专家 作为 评分 者 或 许 是 必要 的 。 壁 
如 ，Kaufman 等 人 (2008) 分 别 选取 专家 (诗人 ) 和 非 
专家 (大 学 生 ) 作 为 评分 者 , 评判 了 205 首 诗 的 创 
造 性 。 结 果 显 示 , 非 专 家 评分 者 的 评分 一 致 性 更 
低 , 并 且 与 专家 的 评分 仅 有 非常 弱 的 相关 。 

但 也 有 研究 为 新 手 评分 的 可 靠 性 提供 了 证 
据 。Lu 及 其 同事 以 具有 多 年 设计 经 验 的 从 业 人 员 
作为 专家 ,以 没有 从 业经 验 的 设计 专业 大 学 生 和 
研究 生 作 为 非 专家 , 对比 了 他 们 对 设计 类 产品 的 
创造 性 评判 ,结果 显示 , 无论 是 依据 CAT, WERK 
据 给 定 系 列 标准 的 产品 创造 力 测量 工具 (Product 
Creativity Measurement Instrument, PCMI), 非 专 
家 评分 者 的 评分 一 致 性 都 更 高 ， 并 且 他 们 在 
PCMI 各 标准 上 的 评分 ， 对 产品 创造 力 的 解释 量 
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更 大 (Lu & Luh, 2012)。Haller Courvoisier 和 Cropley 
(2011) 的 研究 也 显示 ,新 手 的 评分 一 致 性 更 高 。 

对 于 上 述 不 一 致 结果 , Baer, Kaufman fil Riggs 
(2009) 认 为 评判 材料 的 领域 可 能 是 重要 的 影响 
素 。Kaufman, Baer, Cropley, Reiter-Palmon 和 Sinnett 
(2013) 也 对 比 了 不 同 经 验 水 平 的 评分 者 (新 手 、 准 
专家 、 专 家 ) 在 不 同 领 域 ( 短 故事 、 工 业 产品 ) 产 品 
上 评分 的 差异 。 结 果 发 现 ， 在 短 故 事 上 , 准 专家 和 
专家 间 差 异 不 大 , 但 他 们 对 工业 产品 的 评分 结果 
则 不 太一 致 。 这 说 明 , 某 些 领域 可 能 更 需要 专家 
型 评分 者 。Galati (2015) 则 认为 ， 需 要 根据 任务 的 
复杂 性 考虑 是 否 需要 选择 专家 作为 评分 者 : 对 于 
高 复杂 性 任务 ， 专 家 是 必要 的 ; 而 对 低 复 杂 性 任 
务 ， 专 家 和 新 手 的 评分 结果 则 趋 于 相同 ， 因 此 选 
择 非 专家 作为 评分 者 显得 更 加 经 济 。 研 究 也 显示 ， 
对 于 DT 测验 这 种 相对 简单 、 领 域 一 般 性 的 任务 ， 
新 手 评分 者 即 可 取得 不 错 的 评分 效果 (Benedek 
et al., 2013; Silvia et al., 2008)。 另 外 ,针对 相对 复 
林 的 创造 性 产品 任务 , 也 有 研究 表明 , 通过 对 新 
手 进 行 培训 可 以 实现 评分 信 效 度 的 提升 (Storme， 
Myszkowski, Celik, & Lubart, 2014)。 

但 需 注 意 的 是 ,专家 和 新 手 的 评分 差异 可 能 
不 仅仅 体现 在 评分 结果 的 统计 指标 上 ,也 可 能 体 
现在 认 知 特点 上 (Kozbelt & Serafin, 2009)。 因 此 ， 
关于 知识 经 验 对 测评 影响 的 研究 ， 还 需 和 评分 者 
认 知 相 结 合 ， 作 进一步 探讨 。 

2.2 ”评分 者 的 其 他 特征 

除了 知识 经 验 , 评分 者 的 人 格 、 智 力 以 及 自 
身 的 创造 力 等 心理 特征 也 可 能 影响 其 测评 。Tan 
等 (2015) 以 儿童 创作 的 乐高 积木 产品 作为 评判 材 
料 ， 以 不 同 专业 的 大 学 生 作为 新 手 评分 者 ， 并 测 
查 了 评分 者 的 大 五 人 格 和 日 常 创 造 力 。 结 果 显 示 ， 
高 宜人 性 和 高 日 常 创 造 力 的 评分 者 ， 其 评分 标准 
更 为 宽松 。Benedek 等 (2016) 以 DT 任务 中 被 试 的 
想法 作为 测评 材料 ,考察 了 评分 者 人 格 、 智 力 和 
言语 能 力 等 因素 对 评判 准确 性 的 影响 。 结 果 显 示 ， 
人 们 倾向 于 低估 观点 的 创造 性 水 平 ， 但 更 高 水 平 
的 开放 性 、 智 商 和 言语 能 力 可 减少 这 种 消极 偏差 ， 
进而 提升 评判 的 准确 性 。 这 表明 ,高 创造 性 个 体 
或 许 更 有 可 能 发 现 、 识 别 出 创 造 性 想法 。 亦 即 富 
有 创造 性 的 人 可 能 具有 双重 的 技能 : 在 生成 更 多 
创造 性 想法 的 同时 ,也 更 善于 识别 好 的 想法 (Silvia, 
2008)。 


Zhou, Wang, Song 和 Wu (2017) 新 近 的 研究 还 
发 现 , 在 对 他 人 想法 创造 性 评判 时 ， 高 促进 定向 
的 个 体 对 高 创造 性 观念 评分 更 高 ， 而 高 预防 定向 
的 个 体 则 对 低 创 造 性 观点 的 评分 更 高 。 他 们 分 析 
认为 , 一 个 新 观点 可 能 是 一 种 “大 胆 尝试 "， 也 可 
能 是 一 种 “危险 ”， 而 不 同调 节 定 向 的 个 体 对 其 的 
感知 和 偏好 可 能 会 有 所 不 同 。 此 外 , Forthmann 等 
人 (2017) 探 讨 了 评分 者 认 知 负荷 对 评分 一 致 性 的 
影响 。 该 研究 结果 显示 ， 更 复杂 的 观念 (无 论 观念 
集 还 是 单个 观念 ) 因 包含 了 更 多 的 信息 ,会 增加 评 
分 者 的 认 知 负荷 ， 进 而 造成 相互 间 评 分 更 加 不 一 
致 。 该 现象 在 快照 评分 法 (snapshot， 即 对 每 个 被 试 
的 答案 集 ， 给 一 个 整体 的 创造 性 分 数 ) 和 DT 结果 
任务 (consequences tasks， 如 “人 不 需要 睡觉 会 导 
致 哪些 后 果 ? ”) 上 ,表现 得 尤为 突出 。 
2.3 ”创作 者 信息 

无 论 是 CAT 还 是 DT 测验 的 主观 评分 ， 待 评 
的 观点 往往 都 与 其 创作 主体 相 分 离 (Amabile，1982; 
Silvia et al., 2008)。 在 心理 测量 语 境 下 ,这 样 做 可 
避免 创作 者 相关 信息 对 测验 结果 的 干扰 ， 可 以 在 
一 定 程度 上 增加 评分 一 致 性 。 但 在 现实 情境 中 ， 
观点 与 其 作者 是 密切 相 联 的 ， 因 此 创作 者 信息 是 
否 会 对 测评 产生 影响 也 成 为 研究 者 关注 的 一 个 重 
要 问题 。 

为 了 探讨 创作 者 年 龄 信息 对 创造 性 测评 的 影 
J, Hennessey (1994) 曾 让 3 组 大 学 生 评 分 者 评判 
儿童 、 成 人 所 创作 不 同 创造 性 水 平 的 拼 贴 画 。3 
组 的 条 件 分 别 是 : 正确 告知 组 ， 即 提供 真实 的 创 
作者 年 龄 信息 ; 年 龄 信息 对 调 组 ， 即 将 儿童 的 作 
品 标注 为 成 人 所 创作 ， 而 成 人 的 作品 标注 为 儿童 
所 创作 ; 无 年 龄 信息 组 ， 即 不 告知 创作 者 的 年 龄 
信息 。 研 究 结 果 显示 ， 与 不 呈现 年 龄 信息 相 比 ， 呈 
现 何 种 年 龄 信息 都 会 提升 评分 者 对 儿童 所 创作 拼 
贴画 的 创造 性 评分 ; 但 对 成 人 作品 , 不 同 组 的 评 
分 并 无 差异 。 这 表明 , 评分 者 在 测评 过 程 中 会 考 
虑 创作 者 的 特点 ， 进 而 采取 不 同 的 评分 策略 。Han， 
Long 和 Pang (2017) 的 进一步 研究 表明 , 评分 者 对 
低 年 龄 创作 者 的 观点 采 择 ( 即 设身处地 站 在 创作 
者 的 立场 上 评判 ) 可 能 在 其 中 起 着 重要 作用 。 

Kaufman, Baer, Agars 和 Loomis (2010) 考 察 了 
创作 者 种 族 和 性 别 信息 对 创造 性 测评 的 影响 。 乡 
果 显 示 ， 大 学 生 评 分 者 对 白人 女性 的 诗 有 轻微 上 
有 爱 ， 但 整体 上 ,种 族 和 性 别 信息 对 测评 结果 下 
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影响 不 大 。 然 而 , Lebuda 和 Karwowski (2013) MU 
究 则 显示 ,在 相对 缺少 关于 待 评 判 产品 之 间 比 较 
言 息 的 情况 下 ,测评 可 能 更 容易 受到 创作 者 信息 
的 影响 。 该 研究 首先 在 绘画 、 科 学 理论 、 音 乐 和 
诗 四 个 领域 选取 中 等 创造 力 水 平 的 作品 ， 然 后 将 
待 评 作 品 分 别 标注 不 同 虚构 的 创作 者 姓名 (独特 
男性 名 、 独 特 女性 名 、 常 见 男 性 名 、 和 常见 女性 名 
以 及 匿名 )。 结 果 显 示 ， 对 于 诗 和 音乐 作品 ， 标 注 
独特 名 字 的 作品 被 评分 更 高 ; 整体 上 ,男性 的 作 
品 比 女性 的 作品 被 评判 为 更 有 创造 性 ， 对 于 科学 
理论 的 评判 更 是 如 此 。 
24 社会 文化 及 各 因素 的 交互 影响 

文化 作为 人 类 群体 活动 的 深层 心理 建构 ， 对 
创造 力 测评 的 影响 主要 表现 为 : 不 同文 化 情境 下 
的 评分 者 对 创造 力 的 理解 、 评 判 标准 、 赋 予 不 同 
标准 的 权重 ， 以 及 对 创造 性 产品 的 接受 程度 等 都 
会 有 所 差别 。 璧 如 , Lan 和 Kaufman (2012) 的 人 研究 
显示 ,美国 人 倾向 于 重视 新 颖 的 价值 ， 以 及 打破 
常规 的 创造 力 类 型 ; 而 中 国人 则 倾向 于 欣赏 在 限 
制 条 件 下 的 创造 力 ， 例 如 对 传统 观念 的 再 加 工 。 
Hong FI Lee (2015) 的 研究 也 表明 ,文化 会 影响 新 
手 评分 者 对 新 里 建 筑 设计 的 创造 性 评判 ; 与 美国 
白人 相 比 ,东亚 人 对 新 颖 建筑 的 评分 和 接受 程度 
更 低 。 这 与 创造 力 的 跨 文 化 研究 结果 基本 一 致 ， 
即 东 方 文 化 可 能 更 强调 想法 的 适宜 性 和 可 行 性 ， 
而 西方 文化 则 更 看 重 其 新 颖 性 (Goncalo & Staw, 
2006)。 

影响 创造 力 测评 的 因素 具有 多 元 性 、 相 互 作 
用 性 ， 因 此 近期 有 研究 开始 探讨 多 个 因素 间 的 交 
互 作用 对 创造 性 评判 的 影响 。 Cheng (2016) 在 研究 
中 以 乐高 积木 作品 作为 创造 力 测评 任务 , 设置 了 
强势 (告知 作品 由 乐高 狂热 者 完成 ) 和 非 强势 (告知 
作品 由 初学 者 完成 ) 两 种 评分 条 件 ， 同 时 还 测 查 评 
分 者 的 大 五 人 格 。 其 研究 结果 显示 ,情绪 稳定 性 
和 强势 与 否 存 在 交互 作用 : 在 非 强 势 条 件 下 ,不 
同情 绪 稳 定性 评分 者 之 间 的 评分 没有 差别 (都 相 
对 宽松 ); 但 在 强势 条 件 下 ,情绪 稳定 性 低 的 评分 
者 标准 更 加 严格 。 这 表明 , 评分 者 和 创作 者 之 间 
存在 交互 影响 。Zhou 等 人 (2017) 的 研究 则 揭示 ， 
创造 性 评分 受到 评分 者 (不 同调 节 定向 )、 观 点 (不 
同 创造 性 水 平 ) 和 情境 (损失 或 收益 ) 三 者 之 间 的 交 
互 影响 。 在 时 间 进 程 上 , Kozbelt 和 Serafin (2009) 
发 现 对 创造 性 作品 的 评判 具有 动态 性 ， 即 评分 者 


对 创作 过 程 中 各 阶段 的 评判 是 动态 变化 的 ; 并 且 ， 
作品 创造 性 越 高 ， 其 变化 规律 越 复 杂 ， 越 难以 被 
预测 。 鉴 于 影响 创造 性 测评 的 因素 的 复杂 性 ， 
Birney, Beckmann FI Seah (2010) 近 期 提出 了 人 - 任 
务 -情境 三 维 创 造 力 评判 框架 ， 强 调 在 创造 性 评 
估 过 程 中 ， 综 合 考虑 人 人、 任务、 情境 因素 的 共同 
影响 。 
2.5 小结 

综 上 可 见 ， 人们 在 评判 想法 或 产品 创造 性 的 
过 程 中 ,的 确 会 受到 诸多 因素 的 影响 。 有 鉴于 此 ， 
针对 不 同 的 创造 性 测评 手段 ,研究 者 都 提出 了 相 
应 的 要 求 ， 以 尽量 避免 其 他 因素 对 评分 的 干扰 ， 
从 而 实现 对 评分 者 效应 的 控制 。 壁 如， 无 论 是 
CAT 还 是 DT 测验 的 主观 评分 , 评分 者 仅 对 想法 
或 产品 进行 评判 ， 并 不 被 告知 创作 者 信息 
(Amabile, 1982; Silvia et al., 2008), CAT 还 要 求 评 
判 者 先 总 览 所 有 待 评 产品 ， 然 后 再 按 随机 顺序 进 
行 评 分 ， 且 对 不 同 维度 的 评分 顺序 也 应 是 随机 的 
(Amabile, 1983); 在 DT 测验 中 , 研究 者 也 需 将 所 
有 待 评 观 点 录入 电脑 ， 并 将 其 随机 排列 ， 以 排除 
书写 、 反 应 数量 和 位 置 等 因素 的 影响 ,并 向 评分 
者 说 明 评 分 所 依据 的 标准 以 及 标准 间 的 关系 ， 以 
提升 评分 的 内 容 和 构 念 效 度 (Silvia et al., 2008)。 
但 严格 的 要 求 也 限制 了 测评 方法 的 应 用 范围 ， 
提升 了 其 使 用 的 成 本 ,Kaufman, Beghetto 和 Dilley 
(2016) 即 认为 ， 当 前 的 测评 方法 本 质 上 是 为 创造 
力 科 学 研究 而 设计 , 在 应 用 上 有 极 大 的 局 限 性 。 
现实 情境 中 的 创造 性 测评 肯定 更 加 复杂 ， 如 在 创 
作者 、 领 域 和 社会 环境 等 因素 上 都 具有 特殊 性 。 
因此 ,基于 上 述 研究 , 为 了 提升 现实 情境 下 创造 
性 评价 的 信 效 度 ,研究 者 可 能 需要 综合 考虑 各 种 
相关 因素 的 影响 ， 而 非 简单 加 以 排除 。 


3 ”评分 者 效应 的 量化 与 控制 


由 于 评分 者 间 的 变异 是 创造 性 主观 评分 变异 
的 重要 来 源 ， 因 此 作为 支撑 测验 信 效 度 的 一 部 分 
研究 者 需 提供 评分 者 评分 稳定 、 有 效 的 证 据 。 当 
R, 在 这 方面 需要 提供 的 最 为 重要 、 最 为 常见 的 
指标 是 评分 者 一 致 性 信和 度 。 
3.1 评分 者 一 致 性 

作为 独立 的 评分 专家 ,评分 者 需要 依据 自己 
的 评定 标准 或 理解 ， 进 行 独立 的 评判 。 这 时 ， 一 致 
性 即 评分 者 所 评分 数 之 间 的 相关 程度 。 在 创造 性 
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主观 评分 中 , 评分 者 一 般 有 多 名 。 为 了 避免 两 两 
相关 再 取 平均 有 研究 者 采用 组 内 相关 系数 (Intraclass 
Correlation Coefficient, ICC) 来 表示 测量 对 象 变异 
在 测量 分 数 总 体 变 异 中 所 占 的 比例 (e.g., Fink et al., 
2015)。 计 算 ICC 需 选用 不 同 的 模型 ， 而 Cronbach’s a 
系数 即 ICC 各 计算 模型 中 的 一 个 特例 (McGraw 
& Wong, 1996)。 因 此 在 创造 力 的 主观 测评 中 , W 
究 者 多 直接 采用 Cronbach’s a 系数 。 

评分 者 一 致 性 信和 度 可 以 有 效 反映 评分 者 所 评 
分 数 的 稳定 性 , 但 稳定 并 不 代表 准确 。 以 评分 者 
一 致 性 信和 度 来 描绘 评分 者 效应 依然 存在 一 些 局 
R: (1) 各 种 一 致 性 系数 有 其 适用 条 件 。 如 a 系数 


I 


务 侧 面 (其 中 ,评分 者 被 看 作 随 机 面 ， 而 任务 和 计 
分 类 型 都 被 作为 固定 面 )， 分 析 了 不 同 评分 方法 在 
不 同 DT 任务 上 的 评分 者 一 致 性 。 结 果 表明 ， 基 于 
主观 评定 的 平均 数 计 分 法 和 TOP2 计 分 法 ( 仅 对 被 
试 自行 圈 选 的 两 个 最 有 创造 性 答案 计 平 均 分 ), 在 
非常 规 用 途 (unusual uses tasks) 和 例 举 任务 (instances 
tasks) 上 ,评分 者 的 误差 变异 都 不 大 ,测验 分 数 的 
主要 变异 可 由 受 测试 者 的 变异 所 解释 ; 可 靠 性 系 
数 的 分 析 表 明 , 在 这 两 类 任务 上 ， 当 评分 者 为 2 
人 时 ,两 种 系数 基本 都 达到 可 接受 的 水 平 (0.67~ 
0.84)， 并 且 评 分 者 增加 到 3 人 ,可 靠 性 系数 还 有 
适当 的 提升 (可 提升 0.05~0.08); 但 在 结果 任务 上 ， 


的 使 用 前 提 : 每 位 评分 者 评分 对 潜 变 量 的 载荷 一 
致 ， 即 tau 等 价 ; 评分 误差 间 相 互 独立 ， 即 相关 为 
零 。 当 这 些 条 件 无 法 满足 时 ， 信 和 度 估计 即 会 出 现 
日 差 (Silvia，2011) 。(2) 该 指标 只 能 反映 评分 者 对 
作品 创造 性 水 平 高 低 顺序 评定 的 一 致 性 ， 并 不 反 
映 整 体 评分 可 能 存在 的 系统 偏差 。 换 言 之 ， 即 使 
评分 者 间 的 评定 很 一 致 ， 也 依然 不 能 确定 其 所 评 
就 一 定 是 创造 力 。(3) 评 分 者 一 致 性 信和 度 只 能 反映 
来 自 评分 者 变异 的 大 小 ， 并 不 能 从 整体 上 分 解 测 
量变 异 的 来 源 ， 以 明确 不 同 因素 对 测评 结果 的 影 
向 ， 以 及 随 着 这 些 变量 的 变化 信和 度 值 的 变化 。(4) 
其 仅 能 作为 一 个 确定 的 统计 指标 , 但 有 时 测评 的 
结果 已 成 为 既定 事实 , 我 们 可 能 更 加 需要 一 些 统 
计 的 方法 或 技巧 进行 事后 的 调整 和 控制 。 

正 因为 注意 到 评分 者 一 致 性 信和 度 指标 存在 的 
诸多 不 足 ， 研 究 者 近年 来 开始 尝试 以 新 的 统计 和 
测量 技术 分 析 评 分 者 效应 问题 。 其 中 , 测验 的 概 
化 理论 和 多 面 Rasch 模型 的 应 用 日 趋 受到 重视 。 
3.2 ”测验 概 化 理论 的 应 用 

针对 主观 评分 ， 概 化 理论 (Generalizability 


=> 


两 种 主观 计 分 法 的 可 靠 性 都 较 差 ， 且 来 自 评分 者 
的 变异 也 较 大 。 在 Long 和 Pang (2015) 基 于 CAT 
的 研究 中 ， 他 们 也 将 任务 作为 固定 侧面 ， 将 评分 
者 作为 随机 侧面 。 结 果 发 现 , 在 科学 创造 力 任务 
E, 来 自 评分 者 的 变异 不 大 , 与 测量 目的 有 关 的 
变异 同样 不 大 , 测量 分 数 更 多 地 由 误差 变异 ( 受 测 
试 者 与 评分 者 的 交互 效应 ， 以 及 随机 误差 效应 ) 所 
决定 。 信 度 分 析 结 果 则 表明 ， 其 中 一 个 任务 甚至 
需 10 名 以 上 评分 者 ,才能 使 三 类 评分 群体 的 评分 
可 靠 性 都 达到 可 接受 水 平 (二 0.7)。 

概 言 之 , 测验 的 概 化 理论 不 仅仅 可 以 呈现 评 
分 一 致 性 指标 ,还 能 够 使 研究 者 对 测量 误差 有 更 
全 面 的 把 握 ， 同 时 也 能 为 评分 者 数量 的 确定 提供 
依据 。 此 外 , 无 论 是 ICC 还 是 Cronbach's a, 本质 
上 都 是 概 化 理论 的 一 种 模型 特例 (Yang et al., 
2015)。 因 此 ， 概 化 理论 作为 一 种 更 为 灵活 的 框架 ， 
可 应 用 于 更 为 复杂 测量 情境 的 信 度 估计 问题 。 
3.3 2% H Rasch 模型 的 应 用 

Rasch 模型 以 潜在 特质 构建 被 试 在 具体 测试 
项 目 上 的 特征 曲线 , 将 所 有 潜在 特质 参数 与 项 目 


Theory) 将 可 能 影响 测评 结果 的 因素 ,都 看 成 测量 
的 侧面 (如 评分 者 侧面 、 任 务 侧面 等 )， 进 而 将 测量 
的 总 变异 加 以 分 解 。 概 化 理论 的 G 研究 ,可 估计 
测验 的 概 化 系数 g 和 可 靠 性 系数 9。 概 化 理论 的 DD 
研究 ， 则 可 通过 调整 全 域 中 各 侧面 的 样本 量 ， 进 
而 重新 估计 测量 各 变异 和 信和 度 指标 ， 以 为 决策 提 
供 依据 (Long & Pang, 2015; Yang, Oosterhof & Xia, 
2015). 

Silvia 等 (2008) 依 据 概 化 理论 ， 对 比分 析 了 
DT 测验 不 同 计 分 方法 的 可 靠 性 。 他 们 具体 考察 了 
三 个 测量 侧面 : 评分 者 侧面 、 计 分 类 型 侧面 和 任 


参数 定义 在 同一 度量 系统 上 , 综合 考察 被 试 特质 
水 平 、 项 目 难 度 对 正确 作答 概率 的 影响 ， 从 而 提 
升 了 参数 估计 的 科学 性 和 灵活 性 ( 受 子 ,2010; Hung 
et al., 2012). 多 面 Rasch 模型 (Many-Facet Rasch 
Model, MFRM) 是 对 Rasch 双 面 模型 的 扩展 ， 即 除 
了 被 试 者 和 项 目 两 个 侧面 ， 还 考虑 诸如 评分 者 、 

评分 标准 等 侧面 对 评分 的 影响 。 不 同 的 MFRM 模 
型 可 被 用 来 回答 关于 评分 数据 的 不 同 问 题 。 例 如 ， 
要 锚 定 项 目的 难度 相同 ， 即 可 不 考虑 该 侧面 ， 从 
而 形成 新 的 模型 。 因 此 , MFRM 模型 是 评价 评分 
质量 的 有 用 工具 (Linacre, 1994; Wolfe & McVay, 
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2012)。 创造 性 的 主观 评价 受 更 多 不 可 控 因 素 的 影响 。 例 


在 创造 力 测 评 领 域 ， Hung 等 (2012) 以 MFRM 
分 析 评 分 者 效应 的 研究 显示 , 评分 者 虽 没 表现 出 
宽大 /严格 、 极 端 / 趋 中 、 光 环 效应 、 反 应 定 势 / 随 
机 效应 、 安 全 评分 倾向 、 评 分 不 稳定 等 评分 偏差 ， 
但 评分 者 与 各 评分 标准 之 间 存 在 交互 作用 ， 即 评 
分 者 在 不 同 的 评分 标准 上 宽 严 有 所 不 同 。Primi 
(2014) 以 创造 性 隐喻 (如 “骆驼 是 沙漠 中 的 _ 妆 
产品 为 材料 ,以 18 名 研究 生 作 为 评分 者 ， 让 他 们 
对 每 个 产品 的 质量 和 灵活 性 进行 评分 。 尽 管 研究 
中 的 评分 者 接受 了 细致 的 培训 , 但 基于 MFRM 的 
分 析 结 果 仍 显示 , 评分 者 的 宽 严 存在 个 体 差异 ; 
并 且 ,， 将 宽 严 度 调整 为 一 致 ， 能 提高 评分 者 内 部 
一 致 性 信 度 指标 。 

不 难 发 现 ，MFRM 在 某 种 程度 上 可 将 统计 指 
标 与 评分 者 认 知 (如 各 种 评分 偏差 ) 联 系 起 来 ， 并 
可 对 评分 偏差 进行 事后 控制 。 因 此 ， 其 对 评分 者 
效应 的 分 析 更 为 细致 ， 也 为 深入 理解 创造 性 测评 
过 程 提供 了 更 多 的 信息 。 男 外 ， 由 于 MFRM Afi 
样 的 “标尺 ”量化 各 种 参数 ,方便 了 分 数 间 的 等 值 
转换 。 研 究 者 只 需 利 用 一 些 “ 锚 定 项 目 "， 即 可 将 不 
同人 的 评分 关联 起 来 ， 从 而 使 主观 评分 的 应 用 更 
加 灵活 。 


4 总 结 与 展望 


近年 来 , 创造 力 评估 中 的 评分 者 效应 尽管 日 
益 受 到 研究 者 的 重视 , 但 客观 看 来 ,这 一 人 研究 领 
域 方兴未艾 , 仍 存在 诸多 问题 有待 进 一 步 系统 、 
深入 的 探讨 。 如 下 三 个 方面 , 尤其 值得 研究 者 关注 。 
4.1 深化 评分 者 认 知 研究 

综观 当前 有 关 评 分 者 认 知 的 研究 ， 不 难 发 现 ， 
首先 相关 研究 尚 比较 零散 。 譬 如， 创造 性 感知 
(creativity perception)、 观 念 评价 (idea evaluation), 
观念 选择 (idea selection) 和 创造 性 测评 (creativity 
assessmenb) 等 主题 目前 都 已 被 关注 ， 但 还 缺少 对 
它们 之 间 关 系 的 理论 分 析 和 实证 研究 。 再 加 之 各 
具体 研究 所 使 用 的 材料 、 范 式 又 存在 很 大 的 差别 
这 进一步 增加 研究 结果 间 比 较 和 整合 的 难度 。 因 
此 ,未 来 有 必要 进一步 厘清 相关 概念 术语 之 间 的 
区 别 和 联系 ， 进 而 构建 更 加 合理 、 系 统 的 评分 者 
认 知 研究 框架 。 
其 次 ， 目 前 还 缺乏 对 评价 和 评分 认 知 机 制 的 
研究 。 与 有 明确 答案 或 相对 客观 标准 的 评分 相 比 


如 ,评价 者 采取 的 评分 标准 可 能 会 不 同 (Long, 
2014b), 评价 的 过 程 也 存在 个 体 差异 (Long & 
Pang，2015)。 但 当前 的 研究 还 更 多 停留 在 揭示 现 
象 的 层面 。 因 此 , 为 了 更 好 地 以 人 作为 创造 力 测 
评 的 工具 ,研究 者 需要 对 个 体 观 念 评价 认 知 机 制 
有 更 深入 的 了 解 。 这 包括 评分 者 的 评价 标准 、 认 
知 加 工 过 程 ， 以 及 记忆 与 决策 系统 在 其 中 发 挥 的 
作用 等 。 此 外 ,目前 有 关 创 造 性 评价 认 知 神经 机 
制 的 研究 也 非常 有 限 ， 这 与 创造 性 观念 生成 领域 
大 量 的 脑 机 制 研究 形成 明显 对 比 (Ellamil et al., 
2012)。 而 观念 评价 和 观念 生成 是 紧密 相 联 的 ， 且 
两 种 认 知 加 工本 身 也 存在 相互 的 作用 (Hao et al., 
2016)。 因 此 ,评分 者 认 知 和 神经 机 制 的 研究 不 仅 
对 理解 评分 者 效应 有 参考 价值 ， 对 揭示 创造 性 认 
知 加 工 的 本 质 同样 意义 重大 。 
42 整合 不 同 层面 评分 者 效应 的 研究 

目前 , 研究 者 对 创造 力 测评 中 评分 者 效应 的 
“ 表 ” 层 和 “ 潜 * 层 都 做 了 大 量 探讨 , 但 在 两 个 层 卫 
研究 的 相互 整合 上 还 比较 匮乏 ,在 “ 潜 * 层 上 ,人 研究 
者 探讨 了 众多 因素 对 创造 性 评分 总 体 偏向 或 一 致 
性 的 影响 ,但 这 并 不 能 反映 评分 特点 的 全 貌 (如 特 
定 评分 者 的 评分 稳定 性 、 评 分 量程 的 使 用 等 ) 
(Hung et al., 2012); 在 “ 表 ” 层 上 ， 有 研究 者 尝试 运 
有 现代 测量 技术 对 评分 结果 做 更 为 细致 的 分 析 
却 很 少 涉及 对 测评 认 知 机 制 的 探讨 ， 而 更 多 是 对 
量化 指标 的 改进 和 扩展 。 因 此 ， 未 来 研究 可 尝试 
将 两 方面 的 研究 加 以 整合 ,在 分 析 “ 潜 * 层 认 知 特 
点 的 同时 丰富 现代 测量 技术 的 运用 ,做 更 为 细致 
的 评分 分 析 ， 这 或 许可 以 得 到 更 为 全 面 的 结果 ， 
从 而 加 深 对 评分 者 效应 的 理解 和 认识 。 
目前 ， 现 代 测 量 技术 在 创造 力 测评 评分 者 效 
应 中 的 应 用 还 相对 有 限 。 因 此 ,这 种 整合 取向 也 
可 在 一 定 程度 上 促进 新 方法 和 技术 的 推广 。 另 外 ， 
很 多 关于 影响 测评 因素 的 研究 ,它们 在 任务 材 
料 、 评 分 者 以 及 评分 方法 上 都 存在 巨大 差别 ， 特 
别 是 针对 创造 性 产品 测评 的 研究 更 是 如 此 。 而 现 
代 测 量 技术 的 优势 即 在 于 分 离 各 种 变异 (Long & 
Pang, 2015)、 进 行事 后 统计 控制 (Primi, 2014)， 可 
为 不 同 研究 结果 的 关联 和 比较 提供 新 的 视角 。 
4.3 ”拓展 创造 力 测评 方法 和 技术 

当前 有 关 创 造 力 的 测评 方法 ， 本 质 上 是 研究 
者 为 了 科学 地 研究 创造 力 而 设计 (Kaufman et al., 
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2016)。 其 核心 目标 在 于 ， 寻 找 适 当 的 任务 材料 ， 
区 分 个 体 间 创 造 力 水 平 的 差异 。 因 此 , 研究 者 需 
要 知道 哪些 人 更 适宜 作为 评分 者 ,需要 避免 评分 
情境 、 创 作者 信息 等 对 测评 结果 的 干扰 。 但 在 现 
实情 境 中 ， 如 组 织 管理 和 学 校 教育 情境 ， 也 存在 
着 大 量 创 造 力 测评 的 现象 。 显 然 , 现实 情境 中 的 
测评 受到 更 多 因素 的 影响 ,并 且 评 判 者 在 其 中 扮 
演 的 角色 也 更 为 重要 。 因 此 ， 有 必要 进一步 丰富 
现实 情境 中 的 创造 力 测评 研究 ， 以 便 为 开发 适用 
于 实际 创造 力 评估 方法 提供 参考 。 

近年 来 ， 基 于 计算 机 “自动 化 计 分 ”的 评分 方 
法 , 已 开始 被 研究 者 尝试 应 用 于 创造 力 测评 
(Harbison & Haarmann, 2014; Beketayev & Runco, 
2016)。 创 造 力 的 主观 评分 ， 同 样 可 借鉴 类 似 的 技 
术 手 段 。 壁 如 ,将 不 同 研究 中 被 试 创造 性 想法 或 
作品 汇集 成 大 型 数据 库 ,评分 者 即 可 以 基于 计算 
机 的 自动 呈现 进行 评分 。 采 用 这 种 技术 ,不 仅 可 
以 提升 主观 评分 的 效率 、 降 低 使 用 成 本 ， 而 且 能 
在 某 种 程度 上 减轻 评分 者 的 认 知 负荷 , 减少 可 能 
存在 的 评分 者 效应 问题 。 此 外 , 评分 还 可 以 构成 
新 的 “大 数据 ” 以 备 后 续 研 究 的 应 用 或 参考 。 
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Rater effects in creativity assessment 
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Abstract: Rater effects refer to the impact of different raters’ idiosyncrasies in their behaviors on the 
evaluation results in creativity assessment. Rater effects are due to the difference in raters’ cognitive process 
of the evaluation, which are externally reflected in the difference of their scorings. This article first 
summarizes the studies of rater cognition and other influencing factors on creativity assessment, including 
characteristics of raters, information of creators and socio-cultural factors. It further examines inter-rater 
reliability indexes and their limitations, as well as the applications of Generalization Theory and 
Many-Facet Rasch Model in quantifying and controlling of rater effects. Finally, this paper specifies 
directions of future research based on the existing limitations, including deepening the investigation on rater 
cognition in creativity assessment, integrating the studies of rater effects on different levels, and developing 
new methods and techniques of creativity assessment. 
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